Cuadro
de mandos
Enlace al
repositorio en GitHub
| ODS | No procede | Bajo | Medio | Alto |
|---|---|---|---|---|
| 1 Fin de la Pobreza | X | |||
| 2 Hambre cero | X | |||
| 3 Salud y Bienestar | X | |||
| 4 Educación de calidad | X | |||
| 5 Igualdad de género | X | |||
| 6 Agua limpia y saneamiento | X | |||
| 7 Energía Asequible y no contaminante | X | |||
| 8 Trabajo decente y crecimiento económico | X | |||
| 9 Industria, Innovación e Infraestructuras | X | |||
| 10 Reducción de las desigualdades | X | |||
| 11 Ciudades y comunidades sostenibles | X | |||
| 12 Producción y consumo sostenibles | X | |||
| 13 Acción por el clima | X | |||
| 14 Vida submarina | X | |||
| 15 Vida de ecosistemas terrestres | X | |||
| 16 Paz, justicia e instituciones sólidas | X | |||
| 17 Alianzas para lograr objetivos | X |
Utilizaremos la metodología de desarrollo CRISP-DM (Cross Industry Standard Process for Data Mining) que es un marco ampliamente utilizado para proyectos de Ciencias de Datos. En la siguiente figura se presenta un diagrama con las diferentes fases de esta metodología que a continuación describimos con más detalle:
Diagrama metodología de desarrollo CRISP-DM
Es importante observar que esta metodología es iterativa, es decir que los resultados obtenidos en algunas de las fases puede afectar al desarrollo de fases anteriores.
A continuación se describirá en detalle como se han abordado cada una de las fases del desarrollo del proyecto siguiendo esta metodología.
Para garantizar la idoneidad de los datos respecto a los objetivos de la asignatura y la capacidad de cómputo disponible, se estableció un protocolo de búsqueda y selección estructurado en tres fases:
Partiendo del repositorio de fuentes oficiales proporcionado por la docencia, se aplicó un primer filtro basado en requisitos técnicos y dimensionales. Se priorizaron conjuntos de datos con una extensión temporal significativa (series temporales largas) y un volumen de observaciones manejable pero suficiente para el análisis profundo (rango objetivo entre 10 mil y 10 mill registros). Este criterio aseguró un equilibrio entre la riqueza de información y la viabilidad del procesamiento computacional.
Sobre los datasets resultantes, se realizó una exploración cualitativa asistida por herramientas de Inteligencia Artificial (LLMs) para analizar rápidamente los metadatos y descripciones. El objetivo fue identificar temáticas con alto potencial narrativo y relevancia socioeconómica.Se cruzaron las características de los candidatos con los contenidos teóricos del manual de la asignatura (Introducción al Análisis de Datos y Visualización), buscando variables que permitieran aplicar las técnicas de visualización avanzadas (mapas, series temporales, comparativas categóricas) exigidas en el proyecto.
Tras la preselección de un primer candidato y su posterior descarte
por no ajustarse estrictamente a la totalidad de los requisitos de la
rúbrica (específicamente en la granularidad de las variables), se
procedió a la elección final del dataset nama_10r_2lp10.
Este conjunto de datos superó la validación final al cumplir con todos
los criterios: estructura tidy, presencia de variables categóricas y
numéricas, desglose geográfico (NUTS 2) y una serie temporal completa
(1995-2023), permitiendo el análisis multinivel (Europa-España-Canarias)
propuesto.
Los datos de nuestro dataset están organizados de forma tidy. Los variables categóricas que existen, su significado, y sus valores posibles son:
freq: Frecuencia con la que se toman las observaciones. Tiene un único valor “A”, que corresponde a datos anuales.
nace_r2: Rama de actividad económica. Se divide
según la clasificación NACE Rev. 2. Los códigos pueden corresponder
a una sección concreta (ej. A, C, F), a un rango de secciones
consecutivas indicado con guion (ej. B-E, G-I), o a agrupaciones
específicas de varias secciones señaladas con guion bajo (ej.
M_N).
Valores posibles:
na_item: Tipo de indicador económico relacionado con los costes laborales y las horas trabajadas.
unit: Unidad de medida de los valores registrados para cada indicador.
geo: Regiones para las que existen observaciones.
TIME_PERIOD: Fechas de las observaciones. Comprende datos desde 1995 hasta 2023, con observaciones anuales. La cantidad de registros por año varía, siendo especialmente elevada entre 2000 y 2021, destacando los años 2016 y 2020 como los que concentran más observaciones. Cabe destacar que en 2023 el número de registros disminuye significativamente respecto a años anteriores.
## COLUMNA: freq
## freq N.Observ full_name
## [1,] A 432832 Annual
## COLUMNA: nace_r2
## nace_r2 N.Observ full_name
## [1,] TOTAL 72411 Total - all NACE activities
## [2,] O-U 26963 Public administration and defence; compu..
## [3,] O-Q 26756 Public administration, defence, educatio..
## [4,] B-E 25989 Industry (except construction)
## [5,] K-N 25785 Financial and insurance activities; real..
## [6,] F 25713 Construction
## [7,] M_N 25584 Professional, scientific and technical a..
## [8,] A 25569 Agriculture, forestry and fishing
## [9,] C 25569 Manufacturing
## [10,] G-J 25569 Wholesale and retail trade; transport; a..
## [11,] R-U 25452 Arts, entertainment and recreation; othe..
## [12,] G-I 25368 Wholesale and retail trade, transport, a..
## [13,] J 25368 Information and communication
## [14,] K 25368 Financial and insurance activities
## [15,] L 25368 Real estate activities
## COLUMNA: na_item
## na_item N.Observ full_name
## [1,] D1_SAL_HW 387510 Compensation of employees per hour worke..
## [2,] D1_SAL_PER 27607 Compensation per employee
## [3,] HW_EMP 17715 Hours worked per employed person
## COLUMNA: unit
## unit N.Observ full_name
## [1,] EUR 139229 Euro
## [2,] NAC 139229 National currency
## [3,] PC_EU27_2020_MEUR_CP 136659 Percentage of EU27 (from 2020) total (ba..
## [4,] HW 9053 Hours worked
## [5,] PCH_PRE 8662 Percentage change on previous period
##
## CONTABILIZACIÓN Nº REGIONES NUTS A PARTIR DE LA COLUMNA geo
## NUTS Number of Regions
## [1,] 0 29
## [2,] 1 95
## [3,] 2 249
## [4,] EU27_2020 1
## [5,] OTHERS 20
Observamos que el tamaño de las series temporales varía entre 1 y 29 años, siendo el 90% de las series con más de 22 años.
## # A tibble: 1 × 7
## min p10 p25 p50 p75 p90 max
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1 1 22 23 23 23 24 29
Observamos que, tanto para España como para Canarias, el nº de
observaciones supera el p75 de la distribución (1199 >
1159)
Percentiles de la distribución del nº de observaciones por regiones
## # A tibble: 1 × 7
## min p10 p25 p50 p75 p90 max
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1 69 1002 1128 1149 1159 1199 1369
Nº de observaciones en España/Canarias
## # A tibble: 3 × 3
## geo full_name N.Observ
## <chr> <chr> <int>
## 1 ES Spain 1199
## 2 ES7 Canarias 1199
## 3 ES70 Canarias 1199
El dataset presenta 50 combinaciones únicas de variables categóricas
(freq, nace_r2, na_item,
unit), cumpliendo el criterio mínimo de tener al menos 5
atributos combinados con un número relativamente alto de observaciones
(≈8600 observ.).
## # A tibble: 50 × 7
## # Groups: freq, nace_r2, na_item [17]
## freq nace_r2 na_item unit N.observ init.date end.date
## <chr> <chr> <chr> <chr> <int> <dbl> <dbl>
## 1 A TOTAL D1_SAL_PER EUR 9299 1995 2023
## 2 A TOTAL D1_SAL_PER NAC 9299 1995 2023
## 3 A TOTAL D1_SAL_HW EUR 9083 1995 2023
## 4 A TOTAL D1_SAL_HW NAC 9083 1995 2023
## 5 A TOTAL HW_EMP HW 9053 1995 2023
## 6 A O-U D1_SAL_HW EUR 9041 1995 2023
## 7 A O-U D1_SAL_HW NAC 9041 1995 2023
## 8 A TOTAL D1_SAL_PER PC_EU27_2020_MEUR_CP 9009 2000 2023
## 9 A O-Q D1_SAL_HW EUR 8972 1995 2023
## 10 A O-Q D1_SAL_HW NAC 8972 1995 2023
## 11 A TOTAL D1_SAL_HW PC_EU27_2020_MEUR_CP 8923 2000 2023
## 12 A O-U D1_SAL_HW PC_EU27_2020_MEUR_CP 8881 2000 2023
## 13 A O-Q D1_SAL_HW PC_EU27_2020_MEUR_CP 8812 2000 2023
## 14 A B-E D1_SAL_HW EUR 8713 1995 2023
## 15 A B-E D1_SAL_HW NAC 8713 1995 2023
## 16 A TOTAL HW_EMP PCH_PRE 8662 1996 2023
## 17 A K-N D1_SAL_HW EUR 8645 1995 2023
## 18 A K-N D1_SAL_HW NAC 8645 1995 2023
## 19 A F D1_SAL_HW EUR 8621 1995 2023
## 20 A F D1_SAL_HW NAC 8621 1995 2023
## 21 A M_N D1_SAL_HW EUR 8578 1995 2023
## 22 A M_N D1_SAL_HW NAC 8578 1995 2023
## 23 A A D1_SAL_HW EUR 8573 1995 2023
## 24 A A D1_SAL_HW NAC 8573 1995 2023
## 25 A C D1_SAL_HW EUR 8573 1995 2023
## 26 A C D1_SAL_HW NAC 8573 1995 2023
## 27 A G-J D1_SAL_HW EUR 8573 1995 2023
## 28 A G-J D1_SAL_HW NAC 8573 1995 2023
## 29 A B-E D1_SAL_HW PC_EU27_2020_MEUR_CP 8563 2000 2023
## 30 A R-U D1_SAL_HW EUR 8534 1995 2023
## 31 A R-U D1_SAL_HW NAC 8534 1995 2023
## 32 A G-I D1_SAL_HW EUR 8506 1995 2023
## 33 A G-I D1_SAL_HW NAC 8506 1995 2023
## 34 A J D1_SAL_HW EUR 8506 1995 2023
## 35 A J D1_SAL_HW NAC 8506 1995 2023
## 36 A K D1_SAL_HW EUR 8506 1995 2023
## 37 A K D1_SAL_HW NAC 8506 1995 2023
## 38 A L D1_SAL_HW EUR 8506 1995 2023
## 39 A L D1_SAL_HW NAC 8506 1995 2023
## 40 A K-N D1_SAL_HW PC_EU27_2020_MEUR_CP 8495 2000 2023
## 41 A F D1_SAL_HW PC_EU27_2020_MEUR_CP 8471 2000 2023
## 42 A M_N D1_SAL_HW PC_EU27_2020_MEUR_CP 8428 2000 2023
## 43 A A D1_SAL_HW PC_EU27_2020_MEUR_CP 8423 2000 2023
## 44 A C D1_SAL_HW PC_EU27_2020_MEUR_CP 8423 2000 2023
## 45 A G-J D1_SAL_HW PC_EU27_2020_MEUR_CP 8423 2000 2023
## 46 A R-U D1_SAL_HW PC_EU27_2020_MEUR_CP 8384 2000 2023
## 47 A G-I D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
## 48 A J D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
## 49 A K D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
## 50 A L D1_SAL_HW PC_EU27_2020_MEUR_CP 8356 2000 2023
Observamos que los datos se mantienen constantes desde el año 2000 hasta el 2023, registrando valores más altos en periodos recientes en comparación con los antiguos.
Visualización España/Canarias (máximo 60 columnas y 1000 filas por región)
El conjunto de datos original (nama_10r_2lp10)
presentaba una estructura tidy pero requería una serie de
transformaciones para garantizar su calidad y facilitar el análisis
exploratorio. Se llevó a cabo un proceso de limpieza y enriquecimiento
estructurado en las siguientes fases:
Se eliminaron variables redundantes o carentes de varianza
informativa. Concretamente, se descartó la columna freq,
dado que presenta un valor único (“A”) para todas las observaciones,
indicando la periodicidad anual de la serie completa.
Para mejorar la legibilidad del código y la manipulación de los datos, se renombraron las variables principales siguiendo un esquema semántico más claro:
nace_r2 \(\rightarrow\) sectorna_item \(\rightarrow\) itemTIME_PERIOD \(\rightarrow\) yearSe integró información geográfica y descriptiva externa para dotar de contexto a los códigos del dataset original:
urostac_real_nuts). Esto permitió incorporar las
columnas NUTS (nivel jerárquico) y full_name
(nombre oficial de la región), claves para el análisis espacial.sector_name, que recodifica los códigos técnicos NACE
Rev. 2 (ej. “O-U”) en descripciones en lenguaje natural (ej. “Adm.
pública, educación y salud”), facilitando la interpretación visual de
los gráficos.Tras el procesado, el dataset resultante consta de las siguientes variables dimensionadas para el análisis:
geo (Código), NUTS
(Nivel 0, 1, 2), full_name (Etiqueta).year (Serie 1995-2023).sector y
sector_name (Rama de actividad).item (Indicador, promedio
anual: Coste laboral por hora trabajada, Coste laboral por persona
empleada, Horas trabajadas), unit (Unidad de medida) y
values (Valor numérico). Una vez estructurados y limpiados los datos, exploraremos
inicialmente las diferencias entre países según los indicadores
disponibles en el dataset. Esto nos permitirá identificar patrones
generales, contrastar la posición de España frente a otros países y
preparar los datos para un análisis más detallado a nivel sectorial y
regional.
En primer lugar, analizamos la evolución del coste laboral por hora
trabajada en distintos países. Cada línea representa un país, mostrando
tendencias de crecimiento o reducción a lo largo del tiempo, lo que nos
permite situar a España en un contexto internacional.
A continuación, examinamos los diez países con mayor y menor carga
laboral promedio por empleado. Los valores reflejan horas efectivas
trabajadas por semana, y la línea roja indica la posición de España para
contextualizar su situación frente a estos países.
Luego, mostramos los países con mayor coste laboral por hora
trabajada. Se incluyen los datos más recientes disponibles (2018-2023).
Para complementar la visión internacional, se incluye un mapa de
calor que compara el coste medio por sector entre distintos países. Los
colores más intensos indican costes más altos, facilitando la
identificación de sectores más costosos en cada país. Usaremos el
indicador PC_EU27_2020_MEUR_CP, que muestra el porcentaje
que representa cada país respecto al total de la Unión Europea (UE27) en
precios corrientes. Usaremos los datos más recientes (2018-2023).
Vamos a hacer lo mismo ahora para las comunidades autónomas de
España, usando el indicador EUR, que representa el valor
del precio medio por hora trabajada expresado directamente en euros.
Usaremos también los datos más recientes (2018-2023).
A continuación, comparamos el coste medio por hora trabajada según el
sector laboral en España. Este gráfico permite identificar los sectores
con salarios más altos y más bajos por hora, facilitando el análisis
comparativo entre ellos.
Seguido de esto, se muestra la participación de cada sector en el
coste laboral medio total de España durante 2023 mediante un gráfico por
secciones. Esto permite analizar qué sectores contribuyen más o menos al
coste global.
Para entender la variabilidad interna, se incluye un boxplot del
coste laboral medio por persona empleada en los países de Europa
analizados previamente. Este gráfico permite observar los valores
típicos, la dispersión y posibles valores atípicos dentro de los
distintos países.
Finalmente, se presenta un gráfico de dispersión comparando el coste
laboral medio entre España y Canarias. Cada punto representa un sector o
grupo de empleados, permitiendo visualizar diferencias y correlaciones
entre ambos territorios.
En esta parte del análisis, nos centramos en estudiar la evolución temporal de las horas trabajadas en España y su remuneración por hora, para posteriormente aplicar modelos de predicción ARIMA que permitan estimar su posible comportamiento en los próximos años.
Comenzamos observando la evolución de las horas trabajadas en España durante el periodo disponible. Destaca la caída registrada en 2020, resultado del impacto de la pandemia y de la reducción de las horas efectivas trabajadas por los ERTE y las restricciones laborales.
Para ajustar el modelo ARIMA de horas trabajadas, omitimos el año 2020, ya que la anomalía causada por la pandemia distorsionaría los parámetros del modelo.
A continuación, comparamos la evolución de España y Canarias, donde
se aprecia que las horas trabajadas en Canarias son superiores a la
media nacional, reflejando la particularidad de su mercado laboral y la
mayor presencia de sectores con jornadas más largas.
España mantiene horas trabajadas superiores a la media europea,
situándose en un nivel más alto en comparación con otros países de la
UE.
Con el modelo ARIMA aplicado a las horas trabajadas, se estima la evolución para los próximos cinco años. El modelo se ha ajustado omitiendo 2020, dado el impacto anómalo de la pandemia, y proyecta una ligera continuidad en la tendencia a la baja, aunque con cierta variabilidad en los valores futuros.
Pasamos después al análisis de la remuneración por hora trabajada, que muestra una trayectoria más estable y creciente en el tiempo, reflejando una recuperación progresiva tras la crisis sanitaria.
En la comparación entre España y Canarias, se observan diferencias
consistentes: las islas mantienen remuneraciones inferiores a la media
nacional, influenciadas por su estructura productiva y los sectores
predominantes.
En el contexto europeo, la remuneración media por hora en España es
ligeramente inferior a la media de la UE, reflejando diferencias en
productividad y estructura económica.
Finalmente, el modelo ARIMA aplicado a la remuneración muestra un ajuste más preciso que el de las horas trabajadas y proyecta un aumento moderado y constante en los próximos años, consolidando la tendencia positiva observada en el periodo reciente.
TOTAL HORAS TRABAJADAS EN EL PROYECTO : 45.84
DESGLOSE DETALLADO DE LAS SESIONES DE TRABAJO